第1回“Learning Spark”読書会に参加しました

Apache Spark入門

t.honda

2015.03.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

2/28(土)に行われた第1回“Learning Spark”読書会に参加してきました。当日は、大きく分けて

の流れで進みました。本記事では、セッションを聞かせて頂き、私自身が注目したポイントを挙げたと思います。

※気になったポイントの羅列となるため、発表者様の発言そのものや、セッション資料(後述するslideshare上の資料)の文言そのままとなっているところが多いかと思います。予め引用させて頂いていることをお断りしておきます。

事前アンケート結果のご紹介

主催者様である@data_sciesotist様による、事前アンケートの結果についての発表でした。

とのことでした。私も今年に入ってからApache Sparkは知りましたし、実務でも使ったことはありませんので、このアンケート結果には納得できました。

引き続き@data_sciesotist様による、Learning Sparkの第一章についてのセッションでした。以下にセッション資料のslideshareが公開されているので、詳細はそちらを参照してください。
第1回 ``Learning Spark'' 読書会導入 ``Learning Spark読書会について''
第1回 ``Learning Spark'' 読書会第1章 ``Introduction to Data Analysis with Spark''

私個人としては、ストリーム処理や、バッチ処理でHadoopを組むほどの規模ではないが逐次実行が難しい規模の場合などにSparkは使えるのではないかと期待しています。

Sparkは密接に関連するコンポーネントから構成される(Spark SQL、Streaming、機械学習、GraphX)。
それらを組み合わせて使うことが出来る。
使用する人の役割によって、使用する機能が変わってくる。例えばアナリスト→SQLでの検索、データサイエンティスト→Pythonシェル、一般従業員→バッチ、のように。

@data_sciesotist様による、Learning Sparkの第二章の前半についてのセッションでした。以下にセッション資料のslideshareが公開されているので、詳細はそちらを参照してください。
第1回 ``Learning Spark'' 読書会第2章 ``Downloading Spark and Getting Started''

spark-ec2 というスクリプトが標準であり、EC2にデプロイできる。
Bash+PythonなのでLinuxで動かすのが楽。
m3.largeインスタンス5台など、クラスタリングする環境を作ることができる。
ソースを持ってきて、上記のスクリプトを実行すると、セキュリティグループの作成〜インスタンスの作成などができる。
デフォルトはアメリカのリージョン。オプションにてリージョン、ソーンを指定できる。指定したインスタンスタイプが無いとエラーとなる。
質疑応答で、destroyが上手く行かないケースがあったとの話がでました。これについては上手く行く・行かないは当たりはずれが有る。クラスタをキチンと作りたいときは、手動でインスタンスをつくる、との回答でした。